Sono emersi testi che "mostrizzano" l'intelligenza artificiale

Sollevando preoccupazioni sulla sicurezza dell'intelligenza artificiale, una nuova ricerca ha rivelato che modelli linguistici di grandi dimensioni come ChatGPT e Gemini possono essere "avvelenati" anche con soli 250 documenti, portandoli a produrre testi privi di significato o inaccurati.

ORA SONO BERSAGLI

I modelli linguistici di grandi dimensioni, sempre più utilizzati in vari campi, non solo generano conoscenza, ma sono ora anche fruibili. Una ricerca condotta in collaborazione con l'AI Security Institute del Regno Unito, l'Alan Turing Institute e Anthropic ha dimostrato che i sistemi possono essere manipolati con piccole quantità di dati corrotti.

Quindi anche un post di un blog o un sito web personale su Internet possono essere abbastanza efficaci da infiltrarsi nella formazione del modello.

COME FUNZIONA L'AVVELENAMENTO DEI DATI

Il post sul blog di Anthropic osserva che "attori malintenzionati" possono insegnare ai modelli comportamenti indesiderati o pericolosi iniettandovi testo specifico. Questo metodo è chiamato "data poisoning". Secondo i ricercatori, quando un modello viene alimentato con dati apparentemente innocui ma manipolativi, possono verificarsi delle backdoor. Queste backdoor inducono il modello a reagire in modo segreto o inaspettato quando vengono utilizzate determinate frasi.

Utilizzato per far trapelare informazioni

Ad esempio, se un aggressore nasconde una frase di attivazione specifica all'interno di un testo, il modello di intelligenza artificiale può far trapelare informazioni riservate o produrre risposte prive di significato quando rileva la frase. Ciò mette a repentaglio non solo le prestazioni dell'intelligenza artificiale, ma anche la sicurezza dell'utente.

Il rischio è enorme

La ricerca evidenzia come addestrare le IA con dati aperti provenienti da Internet le renda vulnerabili a tali attacchi. Quindi, anche un paragrafo apparentemente innocuo pubblicato su una pagina web accessibile al pubblico può avere un effetto sufficientemente potente da compromettere un modello di grandi dimensioni.